iT邦幫忙

2023 iThome 鐵人賽

DAY 26
0
AI & Data

踏上AI的步伐系列 第 26

Day 26 AI的核心應用:自然語言處理(三)

  • 分享至 

  • xImage
  •  

NLP

NLP特徵抽取

NLP特徵抽取

如何利用數據來適切的表達語言字句的,也就是所謂的字句的語意表示(Word Semantic Representation),是NLP最重要的工作。

詞袋模式

指一個句子的語意可用文本所包含各種不同關鍵詞與頻率出現的多寡來表示,例如一個文本內包含了許多的資訊架構、資訊系統、ERP等等,這表示此文本的內涵與資訊管理非常相關。

1.獨熱編碼(One Hot Encoding)
所謂獨熱編碼是指利用個別單詞出現在文本中的位置,並比1、0來表示其位置的一種稀疏向量句表示方式,簡單來說就是以這篇文章中所有位置出現過的字詞來代表這篇文章的特徵。

2.詞出現頻率(Term Frequency, TF)
指統計每個詞再不同的文件出現的頻率,出現的頻率越高,則表示這個詞為此文件的重要內容與特徵。然而詞頻率法有幾個缺點

  • 沒有考慮比率
  • 未忽略一般沒有特殊性涵義的介系詞與慣用詞:例如 the、a等等。也因此創造了所謂的TF-IDF。
    3.TF-IDF(Term Frequency-Inverse Document Frequency)
    指一種統計方法,用以估計一個詞對於一個文本的獨特性與重要程度,在此公式中,特定子。的重要性主要決定與下列兩個數值的比率。
  • 詞在文本中出現次數:TF=特定詞出現在一個文本中的頻率/一個文本內所有的詞。此比例愈大,表示這個詞對文本的重要性越高。
  • 詞在語料庫中其他文件出現的頻率:IDF=Log(所有文本數)/(包含此訂詞的文本數)。此比例越大,表示這個詞對此文本的重要性越低,因為如果其他的文本也都有這個詞,就表示這個詞很普通、沒有區別性與獨特性,例如冠詞與介系詞。
  • TF-IDF是一個績效良好,應用很廣的語義特徵表示法:主要應用於關鍵字抽取、搜尋引擎、文本分類、摘要抽取。

4.計算詞頻率學派的缺點

  • 稀疏性:one hot encoding是一個及為稀疏的表現方式,例如一個20萬字的文本,如果一個詞指出現5次,則他在20萬向量內的空間,只有5個1,其他都為0,這會造成空間的極度浪費。
  • 沒有序列的資訊:頻率學派只算頻率次數,不管順序關係,因此也失去了許多文字間的資訊。
  • 沒有語意的資訊:BOW主要在表達有哪些詞句?但對每個語義的結構則無法表達。

詞向量模式的基本概念

所謂詞向量(Word Vector)或稱詞嵌入(World Embedding)指一種以固定維度向量的方式,利用上下文關係的大小來表示一個詞本身所具有的語意特徵。以下為詞向量的幾個基本概念:
1.詞向量表示降維的表示方式:由於詞向量在one hot encoding的基礎上抽取,一篇有數十萬個詞的文本,不可能以所有出現過的單字的維度來表詞向量,因此需以降維的方式來抽取比這這些詞更高層次、更具區別力的隱藏特徵。例如要用[顏色、機械、行動]三個高層次的隱藏特徵來表示綠、紅、海浪、汽車與飛機的詞向量則

  • 紅色指與顏色有關。
  • 飛行器則與機械、行動都有關。
  • 海浪只與行動有關。

2.詞向量以固定的維數來表示:一般詞向量的維度都在數百到數千之間,例如GPT-3則有上萬個維度,常用的如300,義及對於每個詞我們都用300個參數來表達這個詞的特徵與涵義。

3.相同語意的詞向高維度下的空間距離相似:相同語意的詞,由於其上下文的相似度高,在高維度的語意空間內距離會相近。

詞向量的主要抽取模式

1.Word2 Vector
簡單來說World2 Vector指一種利用三層網路的類神經網路,透過預測詞彙上下文的方式,來訓練詞向量的一種模式。訓練方式有以下兩種:

  • CBOW:指利用上下文來訓練產生出來的與與側一個目標單詞並從隱藏層特徵中獲取各個輸入單詞的參數的義種訓練模型。
  • 跳躍式模型(Skip-gram Model):與CBOW一樣,但方式顛倒,指利用一個目標詞,透過三層的神經網路,來預測其周遭附近的上下文,並由此求得該目標詞「詞向量」的一種訓練模式。

2.GloVe詞向量(Global Vectors for Word Representation)
指一種詞與詞的共線矩陣(Co-cooccurrence Matrix)為核心所計算出來的一種詞向量。

3.詞向量模式的比較
三者比較如下:

  • Skip-gram Model複雜度高、訓練時間長,但訓練效果好。
  • CBOW模式複雜低、訓練時間較短,但訓練效果較差。
  • GloVe模式複雜度低、訓練時間短,而且訓練效果好。

詞向量的優缺點

1.詞向量的優點

  • 了解詞與詞之間的關係
  • 密集的向量表示(Dense One Hot Encoding)
  • 了解詞與上下文之間的關係
  • 了解詞本身的語意
    2.詞向量的缺點
  • 無法處理同詞異義的關係
  • 指代消歧問題:指對於指是代名詞到底是連接哪個名詞,尤其這兩個相關的詞距離太遠時,詞系輛常常無法精確處理。
  • 沒有文本背景了解:詞向量只是詞層次的語意表示,本文無法了解句子與句子之間的關係與結構。

句向量的特徵抽取

所謂句向量(Sentence Embedding),以句子為單位,以固定維數的向量,來訓練學習與表示,句子語法與語意的一種語言模型。
1.詞袋模式(BOW)家族
代表為TF-IDF模型,此模型用TF-IDF的計算來表達在一個句子的向量中,哪些詞的權重較高,而這些權重的加權總合,就是這個句子的意義與特徵此家族的句向量算法,簡單容易使用,但也具備了BOW演算法的先天缺點。

2.詞向量模式
以詞向量為基礎透過各種不同的轉換與加權平均來整成句向量。

  • 簡單平均值式:指一個句向量,就是句子中所有詞向量加總和平均,能表示出句子內所包含各式各樣詞的特色,組合成句子的特徵。
  • TF-IDF模式:指利用TF-IDF數值,對句子內的詞向量做加權總合,此方法比上個模型更能凸顯句子內,哪些詞向量有更重要的特色。

3.句向量模式(Sentence to Vector)
以句為單位直接來學習訓練及抽取整個句子的向量,而非以詞的組合加權平均來表達,主要包含以下幾種:

  • Skip-gram Model:指利用義組句子的詞向量,透過類似World2 Vector中的Skip-gram的方式來預測其上下句子,並從中求取句子的向量。
  • CBOW Model
  • 類似World2 Vector中的CBOW Model,只是把單位由此轉換為句子。

4.語言模型
例如BERT,利用上下句彼此之間的共現關係大小來學習句向量。


參考資料
人工智慧-概念應用與管理 林東清 著


上一篇
Day 25 AI的核心應用:自然語言處理(二)
下一篇
Day27 AI的核心應用:自然語言處理(四)
系列文
踏上AI的步伐30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言